查看原文
其他

小张 2018-06-03

现在做生物信息学分析发SCI文章非常火,我们检索了下这两年5分以上的杂志发表数据挖掘为主的文章已经有不下80篇了,其中Oncotarget占了不少,这些文章主要以GEO和TCGA数据库中的数据挖掘为主,分析工具包括了Cbioportal等网站以及R语言。在文章有哪些文章让你觉得:这样就可以的话,那我也能发!里面我们简单为大家做了介绍,后续还有进一步的文章重现,敬请期待。


今天我们就从TCGA这个数据库挖掘用的最多的一个工具——Cbioportal开始为大家做一下介绍。


Cbioportal的网址:http://www.cbioportal.org/

这是改版以后的新界面,既可以查询,又可以下载数据(关于TCGA数据的下载还有另外一个工具:这么好用的TCGA数据下载工具?!


下面我们主要查一下STAT家族几个分子在TCGA肝癌数据中的情况,主要是STAT1,STAT2,STAT3,STAT4,STAT5A,STAT5B和STAT6这7个分子。

在左侧我们选择Liver后右侧出现了5个dataset,右侧红框里面是这个dataset的介绍,我们勾选最后一个后在Select Data Type Priority下面出现了四个选项:Mutation(突变)、CNA(拷贝数变异)、mRNA表达和蛋白表达,

这里我们可以设置差异表达的倍数,默认的数值是2倍。

接下来我们可以选择数据集合,我们默认全选,然后是下面红框里面需要输入基因名,我们输入STAT1,STAT2,STAT3,STAT4,STAT5A,STAT5B和STAT6(分子之间用tab键做区分,或者直接从excel中复制进来),下面就识别好了:

接着我们单击提交submit query就好了,会打开一个新界面如下:

我们看到第一个是OncoPrint,这张图在文章里面出现频率很高,可以直接用,展示的是这7个基因扩增(amplification)、缺失(deletion),mRNA表达以及蛋白表达上调和下调,truncation突变和misense突变的情况。


接下来Cancer Types Summary是每个基因的变异占比:


接下来是Mutual Exclusivity,说的是排他和共存,简单来理解就是情敌朋友,这个对于我们研究这7个基因之间的调控关系是有很重要的参考意义的,如果两个基因老是一起出现,他俩之间总是有点暧昧的:


在Plot这一栏里面:我们可以看到基因mRNA表达、拷贝数、DNA甲基化以及蛋白表达的关系:

比如这里我们横轴选择mRNA表达,纵轴选择DNA甲基化,展示的就是STAT1基因mRNA表达与DNA甲基化的相关性,我们看到pearson和spearman相关性系数是-0.46和-0.59,也就是负相关,说明DNA甲基化可能是导致STAT1低表达的原因之一,后面我们在研究STAT1低表达时就可以考虑DNA甲基化对其调控的影响了。


下面我们看共表达co-expression:

这里分别展示在TCGA的这组肝癌数据中与每个基因之间共表达的分子,可以选择正相关,也可以选择负相关。这个数据可以帮我们建立以查询基因为主题的共表达网络network图(前提是在TCGA这组数据里面),当然有了这些基因的信息还可以做功能注释,比如Pathway分析,GO分析等,从而明确STAT可能参与的功能和信号通路。另外,我们知道STAT是转录因子,再结合靶基因预测还可以寻找潜在的靶基因。所以这个数据非常有用。


下面我们看Survival:

这里展示的是7个基因的组合与肝癌病人预后的关系,有OS和DFS这两个指标,这站图在文章里面出现的频率也很高,可以直接用。


最后我们看Network:

这里展示了这7个基因与50个基因以及药物的Network,结果可以导出到cytoscape。


关于TCGA数据库查询使用的第一个工具Cbioportal今天就简单介绍到这里,使用工具还有很多,我们慢慢讲。最后做一下广告:《实用数据库挖掘》已经上线,数据库不仅包括了TCGA,还有GEO、UCSC等多个数据库和工具:

依凡老师会为大家个性化答疑辅导,购买链接单击“阅读原文”。


长按二维码识别关注“小张聊科研”

关注后获取《科研修炼手册》1.0、2.0、3.0、4.0、基金篇精华合集


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存